n为所有点的数量
首先修改后仍然可以用KL散度做cost function进行梯度下降.
这样修改的原因
- 修改成联合概率后会让后面的cost function的梯度下降更简单一点
- 如果在高维分布中如果有些离群点,这些点到到其他点都较远,这些离群点在低维分布中就很难定,改成这种形式后能保证$p_{i}=\sum_j{p_{i,j}}>\frac{1}{2n}$
KL散度用以衡量两个分布的相似度,当用梯度下降不断调正低维空间点的位置来最小化KL散度时,实际上是将低维空间点的分布逼近高维空间的分布
对低维空间点i的偏导如下
低维空间的概率分布改进
参考
- Visualizing Data using t-SNE, Laurens van der Maaten, Geoffrey Hinton